Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!
凡是搞计量经济的,都关注这个号了
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
关于机器学习在计量分析中的应用,各位学者可以参阅如下文章:1.Python中的计量回归模块及所有模块概览,2.空间计量软件代码资源集锦(Matlab/R/Python/SAS/Stata), 不再因空间效应而感到孤独,3.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),4.机器学习第一书, 数据挖掘, 推理和预测,5.从线性回归到机器学习, 一张图帮你文献综述,6.11种与机器学习相关的多元变量分析方法汇总,7.机器学习和大数据计量经济学, 你必须阅读一下这篇,8.机器学习与Econometrics的书籍推荐, 值得拥有的经典,9.机器学习在微观计量的应用最新趋势: 大数据和因果推断,10.机器学习在微观计量的应用最新趋势: 回归模型,11.机器学习对计量经济学的影响, AEA年会独家报道,12.机器学习,可异于数理统计,13.Python, Stata, R软件史上最全快捷键合辑!,14.Python与Stata, R, SAS, SQL在数据处理上的比较, 含code及细致讲解,15.Python做因果推断的方法示例, 解读与code,16.文本分析的步骤, 工具, 途径和可视化如何做?17.文本大数据分析在经济学和金融学中的应用, 最全文献综述,18.文本函数和正则表达式, 文本分析事无巨细,19.最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注!20.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!
前面,我们引荐了①“机器学习方法出现在AER, JPE, QJE等顶刊上了!”,②前沿: 机器学习在金融和能源经济领域的应用分类总结,③Lasso, 岭回归, 弹性网估计在软件中的实现流程和示例解读”,④回归方法深度剖析(OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR),⑤高维回归方法: Ridge, Lasso, Elastic Net用了吗,⑥Lasso回归操作指南, 数据, 程序和解读都有,⑦七种常用回归技术,如何正确选择回归模型?,⑧共线性、过度/不能识别问题的Solutions,⑨计量经济学与实验经济学的若干新近发展及展望,⑩计量经济学新进展,供参考等,在学术同行间引起巨大反响。
机器学习: 一种应用的计量经济学方法
Mullainathan, Sendhil, and Jann Spiess. 2017. "Machine Learning: An Applied Econometric Approach."Journal of Economic Perspectives, 31 (2): 87-106.
摘要
Machines are increasingly doing "intelligent" things. Face recognition algorithms use a large dataset of photos labeled as having a face or not to estimate a function that predicts the presence y of a face from pixels x. This similarity to econometrics raises questions: How do these new empirical tools fit with what we know? As empirical economists, how can we use them? We present a way of thinking about machine learning that gives it its own place in the econometric toolbox. Machine learning not only provides new tools, it solves a different problem. Specifically, machine learning revolves around the problem of prediction, while many economic applications revolve around parameter estimation. So applying machine learning to economics requires finding relevant tasks. Machine learning algorithms are now technically easy to use: you can download convenient packages in R or Python. This also raises the risk that the algorithms are applied naively or their output is misinterpreted. We hope to make them conceptually easier to use by providing a crisper understanding of how these algorithms work, where they excel, and where they can stumble—and thus where they can be most usefully applied.
以复杂度为条件,选择最佳的样本内最小损失函数。
使用经验调整来估计复杂度的最佳级别。
1. 新数据
特征 | 作者 | 研究内容 |
---|---|---|
通过机器学习运用卫星图像数据 | Donaldson and Storeygard (2016) | 概述了使用卫星图像数据的经济文献 |
Henderson, Storeygard and Weil (2012) | 利用卫星图像数据研究夜间的光度与经济产出之间的关系 | |
Lobell (2013) | 使用卫星图像数据估计未来的收成规模 | |
Blumenstock 2016). | 利用卫星图像数据通过机器学习追踪和确定发展中国家的贫困程度 | |
Jean(2016) | 根据五个非洲国家的卫星数据运用神经网络预测当地的经济结果 | |
运用大规模网络数据 | Blumenstock,Cadamuro and On(2015) | 使用手机数据量化卢旺达个人财富水平 |
Galeser,Kominers,Luca and Naik(2016) | 使用Google街景视图中的图像来衡量和波士顿的收入。 | |
运用语言作为数据源 | Kang,Kuznetsova,Luca and Choi(2013) | 使用餐厅评论来预测卫生检查的结果 |
Antweiler and Frank(2004) | 将150万条评论进行看涨看跌或两者都不分类作为数据基础,表明在线消息有助于解释市场的波动性。 | |
将详细的财务报表作为数据源 | Kogan,Levin,Routledge,Sagi and Smith(2009) | 根据10-K中的市场风险文字披露预测大约10,000家此类公司的波动性并表明它为过去的波动性添加了重要的预测信息 |
Hoberg and Phillips(2016) | 从其10-K业提取了公司的相似性,从而为这些公司生成了随着时代变化的新行业分类。 | |
将机器学习在传统数据集中进行预处理和估算 | Feigenbaum (2015a,b) | 应用机器学习分类器来匹配历史记录中从而量化大萧条时期的社会流动性 |
Bernheim, Bjorkegren, Naecker and Rangel(2013) | 将参加实验室的被调查者数据进行机器学习从而根据调查响应预测实际选择 |
首先在工具变量z上进行回归:
2. 然后在拟合值 上进行回归
通常将第一阶段作为估计步骤。但这实际上是一项预测任务:只有预测进入第二阶段。第一阶段的系数仅仅是达到这些拟合值的一种方法。而工具变量中的有限样本偏差是过度拟合的结果。过度拟合意味着样本内拟合值 不仅拾取 ,而且拾取噪声 。结果导致 偏向x,从而使得第二阶段的估计值 因此偏向x与y的普通最小二乘估计。相关文献整理如下:
作者 | 研究内容 |
3.政策预测
有关文献如下:
作者 | 研究内容 |
4. 测试理论
有关文献如下:
作者 | 研究内容 |
长按以上二维码可以阅读Machine Learning: An Applied Econometric Approach原文
关于一些计量方法的合辑,各位学者可以参看如下文章:①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些,⑥过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!⑩最近50篇使用系统GMM开展实证研究的papers合辑!
2.5年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。